智能论文笔记

The Multiscenario Multienvironment BioSecure Multimodal Database (BMDB)

Javier Ortega-Garcia , Julian Fierrez , Fernando Alonso-Fernandez , Javier Galbally , Manuel R Freire , Joaquin Gonzalez-Rodriguez , Carmen Garcia-Mateo , Jose-Luis Alba-Castro , Elisardo Gonzalez-Agulla , Enrique Otero-Muras

分类：计算机视觉

2021-11-17

展示了在欧洲生物安全卓越网络框架内设计和获取的新的多模态生物识别数据库。它由600多个个人在三种情况下在三种情况下获得：1）在互联网上，2）在带台式PC的办公环境中，以及3）在室内/室外环境中，具有移动便携式硬件。这三种方案包括音频/视频数据的共同部分。此外，已使用桌面PC和移动便携式硬件获取签名和指纹数据。此外，使用桌面PC在第二个方案中获取手和虹膜数据。收购事项已于11名欧洲机构进行。 BioSecure多模式数据库（BMDB）的其他功能有：两个采集会话，在某些方式的几种传感器，均衡性别和年龄分布，多式化现实情景，每种方式，跨欧洲多样性，人口统计数据的可用性，以及人口统计数据的可用性与其他多模式数据库的兼容性。 BMDB的新型收购条件允许我们对单币或多模式生物识别系统进行新的具有挑战性的研究和评估，如最近的生物安全的多模式评估活动。还给出了该活动的描述，包括来自新数据库的单个模式的基线结果。预计数据库将通过2008年通过生物安全协会进行研究目的

translated by 谷歌翻译

Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal Biometric Fusion Algorithms

Norman Poh , Thirimachos Bourlai , Josef Kittler , Lorene Allano , Fernando Alonso-Fernandez , Onkar Ambekar , John Baker , Bernadette Dorizzi , Omolara Fatukasi , Julian Fierrez

分类：计算机视觉

2021-11-17

通过生物手段自动验证一个人的身份是在每天的日常活动，如在机场访问银行服务和安全控制的一个重要应用。为了提高系统的可靠性，通常使用几个生物识别设备。这种组合系统被称为多模式生物测定系统。本文报道生物安全DS2（访问控制）评估由英国萨里大学举办的活动，包括面部，指纹和虹膜的个人认证生物特征的框架内进行基准研究，在媒体针对物理访问控制中的应用-size建立一些500人。虽然多峰生物测定是公调查对象，不存在基准融合算法的比较。朝着这个目标努力，我们设计了两组实验：质量依赖性和成本敏感的评估。质量依赖性评价旨在评估融合算法如何可以在变化的原始图像的质量主要是由于设备的变化来执行。在对成本敏感的评价，另一方面，研究了一种融合算法可以如何执行给定的受限的计算和在软件和硬件故障的存在，从而导致错误，例如失败到获取和失败到匹配。由于多个捕捉设备可用，融合算法应该能够处理这种非理想但仍然真实的场景。在这两种评价中，各融合算法被提供有从每个生物统计比较子系统以及两个模板和查询数据的质量度量得分。在活动的号召的响应证明是非常令人鼓舞的，与提交22个融合系统。据我们所知，这是第一次尝试基准品质为基础多模态融合算法。

translated by 谷歌翻译

The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions

Philipp Tschandl , Cliff Rosendahl , Harald Kittler

分类：

2018-03-28

Training of neural networks for automated diagnosis of pigmented skin lesions is hampered by the small size and lack of diversity of available datasets of dermatoscopic images. We tackle this problem by releasing the HAM10000 ("Human Against Machine with 10000 training images") dataset. We collected dermatoscopic images from different populations acquired and stored by different modalities. Given this diversity we had to apply different acquisition and cleaning methods and developed semi-automatic workflows utilizing specifically trained neural networks. The final dataset consists of 10015 dermatoscopic images which are released as a training set for academic machine learning purposes and are publicly available through the ISIC archive. This benchmark dataset can be used for machine learning and for comparisons with human experts. Cases include a representative collection of all important diagnostic categories in the realm of pigmented lesions. More than 50% of lesions have been confirmed by pathology, while the ground truth for the rest of the cases was either follow-up, expert consensus, or confirmation by in-vivo confocal microscopy. Design Type(s)database creation objective • data integration objective • image format conversion objective Measurement Type(s) skin lesions Technology Type(s) digital curation Factor Type(s) diagnosis • Diagnostic Procedure • age • biological sex • animal body part Sample Characteristic(s) Homo sapiens • skin of body

translated by 谷歌翻译

Statistical Distance Based Deterministic Offspring Selection in SMC Methods

Oskar Kviman , Hazal Koptagel , Harald Melin , Jens Lagergren

分类： (统计)机器学习 | 机器学习

2022-12-23

Over the years, sequential Monte Carlo (SMC) and, equivalently, particle filter (PF) theory has gained substantial attention from researchers. However, the performance of the resampling methodology, also known as offspring selection, has not advanced recently. We propose two deterministic offspring selection methods, which strive to minimize the Kullback-Leibler (KL) divergence and the total variation (TV) distance, respectively, between the particle distribution prior and subsequent to the offspring selection. By reducing the statistical distance between the selected offspring and the joint distribution, we obtain a heuristic search procedure that performs superior to a maximum likelihood search in precisely those contexts where the latter performs better than an SMC. For SMC and particle Markov chain Monte Carlo (pMCMC), our proposed offspring selection methods always outperform or compare favorably with the two state-of-the-art resampling schemes on two models commonly used as benchmarks from the literature.

translated by 谷歌翻译

Visual Grounding of Inter-lingual Word-Embeddings

Wafaa Mohammed , Hassan Shahmohammadi , Hendrik P. A. Lensch , R. Harald Baayen

分类：自然语言处理

2022-09-08

语言的视觉基础旨在用多种视觉知识来源（例如图像和视频）丰富语言表示。尽管视觉接地是一个深入研究的领域，但视觉接地的语言方面并没有得到太多关注。本研究调查了单词嵌入的语法视觉基础。我们在两个视觉和语言空间之间提出了一种隐式对齐技术，其中语言之间的文本信息相互作用以丰富预训练的文本单词嵌入。我们专注于实验中的三种语言，即英语，阿拉伯语和德语。我们获得了这些语言的视觉接地矢量表示形式，并研究了一种或多种语言的视觉接地是否改善了嵌入在单词相似性和分类基准上的嵌入性能。我们的实验表明，语法知识可以改善类似语言（例如德语和英语）的扎根嵌入性能。但是，德语或英语用阿拉伯语的语言基础导致单词相似性基准的性能略有降解。另一方面，我们观察到了分类基准的相反趋势，而阿拉伯语对英语的进步最大。在讨论部分中，提出了这些发现的几个原因。我们希望我们的实验为进一步研究的基线提供了有关语法间视觉接地的基准。

translated by 谷歌翻译

Towards Top-Down Deep Code Generation in Limited Scopes

Jian Gu , Harald C. Gall

分类：机器学习

2022-09-04

深度代码生成是软件工程深度学习（DL4SE）的主题，该主题采用神经模型来为预期功能生成代码。由于端到端的神经方法缺乏对域知识和软件层次结构的认识，因此结果通常需要手动校正。为了系统地探索代码生成的潜在改进，我们让IT参与从意图到实现的整个自上而下的发展，这在有限的范围中是可能的。在此过程中，它受益于大量样本，功能和知识。作为基金会，我们建议对代码数据（即代码分类法）建立分类法，利用代码信息的分类。此外，我们引入了三层语义金字塔（SP）以关联文本数据和代码数据。它标识了不同的抽象水平的信息，因此介绍了有关开发的领域知识，并揭示了软件的层次结构。此外，我们提出了一个语义金字塔框架（SPF）作为方法，重点是高模块化和低复杂性的软件。 SPF将代码生成过程分为阶段，并为潜在的相互作用提供储量。最终，我们为SPF构思了应用程序范围。

translated by 谷歌翻译

RGBD1K: A Large-scale Dataset and Benchmark for RGB-D Object Tracking

Xue-Feng Zhu , Tianyang Xu , Zhangyong Tang , Zucheng Wu , Haodong Liu , Xiao Yang , Xiao-Jun Wu , Josef Kittler

分类：计算机视觉

2022-08-21

RGB-D对象跟踪最近引起了广泛的关注，这得益于视觉和深度通道之间的共生能力。但是，鉴于有限的注释RGB-D跟踪数据，大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序，而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题，本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列，总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处，尤其是RGBD1K，我们开发了一个基于变压器的RGB-D跟踪器，名为SPT，是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明，RGBD1K数据集的潜力可以提高RGB-D跟踪的性能，从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供：https：//will.be.available.at.at.this.website。

translated by 谷歌翻译

Entity Type Prediction Leveraging Graph Walks and Entity Descriptions

Russa Biswas , Jan Portisch , Heiko Paulheim , Harald Sack , Mehwish Alam

分类：自然语言处理 | 人工智能

2022-07-28

知识图（kgs）中的实体类型信息（例如DBPEDIA，FREEBASE等）通常由于自动产生或人类策划而通常不完整。实体键入是在kg中分配或推断实体的语义类型的任务。本文介绍了\ textit {grand {grand}，这是一种实体键入的新方法，利用RDF2VEC中的不同图形步行策略以及文本实体描述。 RDF2VEC首先生成图形步行，然后使用语言模型来获取图中每个节点的嵌入。这项研究表明，步行生成策略和嵌入模型对实体打字任务的性能有重大影响。所提出的方法的表现优于基准数据集DBPedia和Figer在kgs中的实体和小颗粒类别的实体。结果表明，订单感知RDF2VEC变体的组合以及文本实体描述的上下文嵌入可实现最佳结果。

translated by 谷歌翻译

Making sense of spoken plurals

Elnaz Shafaei-Bajestan , Peter Uhrig , R. Harald Baayen

分类：自然语言处理

2022-07-05

分销语义提供了研究形态学语义的新方法。这项研究的重点是名词奇异人的语义及其在英语中的复数变种变体。我们的目标是比较两个模型的多元化概念化。一个模型（FRACSS）提出，在预测来自单数语义的复数语义时，应考虑所有奇异对。另一个模型（CCA）认为，多元化的概念化主要取决于基本单词的语义类别。我们根据大量的美国英语语音与两个模型预测的语义矢量相一致的大量语料库中复数代币的语音信号的方式进行比较。采用了两项措施：表单与义映射的性能以及形式距离和含义距离之间的相关性。结果收敛于CCA的优质比对。我们的结果表明，基于用法的多元化方法，其中给定单词自己的语义社区的优先级优于理论，根据该理论，多元化被概念化为基于高级抽象的过程。我们看到，经常被认为是一个高度抽象的概念，[+复数]可以通过中级部分概括的家庭更好地捕获。

translated by 谷歌翻译

How trial-to-trial learning shapes mappings in the mental lexicon: Modelling Lexical Decision with Linear Discriminative Learning

Maria Heitmeier , Yu-Ying Chuang , R. Harald Baayen

分类：自然语言处理

2022-07-01

启动和抗精气可以通过错误驱动的学习来建模（Marsolek，2008），假设学习质量的影响对目标刺激的处理进行了学习。这意味着参与者在启动研究中不断学习，并预测他们在其他心理语言实验的每项试验中也在学习。这项研究调查了在词汇决策实验中是否可以检测到试验学习。我们使用了判别词典模型（DLM; Baayen等，2019），这是一种具有分布语义的含义表示的精神词典模型，该模型具有分布语义的含义表示，该模型以Widrow-hoff规则为增量学习模型。我们使用了英国词典项目（BLP； Keuleers等，2012）的数据，并对每个受试者单独进行试用基础进行了DLM模拟词汇决策实验。然后，使用源自DLM模拟作为预测因子的措施预测单词和非单词的反应时间。使用两个受试者的数据开发模型，并对所有其他受试者进行了测试。我们从两个模拟中为每个主题提取了措施（一个在试验之间进行了学习更新，一个没有），并将其用作两个GAM的输入。基于学习的模型比大多数受试者的非学习模型表现出更好的模型拟合度。我们的措施还提供了有关词汇处理的见解，并使我们能够通过线性混合模型探索个体差异。这证明了DLM对行为数据进行建模的潜力，并得出这样的结论：在心理语言实验中确实可以检测到试验到审判的学习。

translated by 谷歌翻译